Skill

Association Rule Mining

Machine Learning - নাইম (Knime)
228

Association Rule Mining (অ্যাসোসিয়েশন রুল মাইনিং) একটি জনপ্রিয় ডেটা মাইনিং টেকনিক, যা বৃহৎ ডেটাসেট থেকে সম্পর্কিত আইটেম বা বৈশিষ্ট্যগুলো চিহ্নিত করার জন্য ব্যবহৃত হয়। এটি মূলত "Market Basket Analysis" নামে পরিচিত, যেখানে বিভিন্ন পণ্য বা আইটেমগুলোর মধ্যে সম্পর্ক শনাক্ত করা হয়, যেমন কোন পণ্যগুলো একসাথে কেনা হয়।

Association Rule Mining এর মূল ধারণা

এটি মূলত দুটি প্রধান ধাপে কাজ করে:

  1. Frequent Itemset Generation:
    • প্রথমে এমন আইটেমসেট খোঁজা হয় যা একটি ডেটাসেটে প্রচুর পরিমাণে প্রদর্শিত হয় (অথবা খুব সাধারণ)। এর জন্য জনপ্রিয় অ্যালগরিদমগুলো যেমন Apriori এবং FP-growth ব্যবহৃত হয়।
  2. Rule Generation:
    • এরপর, association rules তৈরি করা হয় যা আইটেমসেটগুলোর মধ্যে সম্পর্ক ব্যাখ্যা করে। এই নিয়মগুলো সাধারণত আকারে লেখা হয়: ABA \Rightarrow B
    • অর্থাৎ, A আইটেমের উপস্থিতি থেকে আমরা বুঝতে পারি যে B আইটেমের উপস্থিতি বেশি সম্ভাবনা।

Association Rule Mining এর বৈশিষ্ট্য

  1. Support:

    • Support একটি মেট্রিক যা একটি আইটেমসেটের উপস্থিতির পরিমাণ পরিমাপ করে, বা এটি কতবার ডেটাসেটে দেখা যাচ্ছে তা প্রকাশ করে।

    Support(A)=Total transactions containing ATotal number of transactionsSupport(A) = \frac{\text{Total transactions containing A}}{\text{Total number of transactions}}

  2. Confidence:

    • Confidence একটি নির্দিষ্ট অ্যাসোসিয়েশন রুলের সঠিকতা বা বিশ্বাসযোগ্যতা পরিমাপ করে। এটি বলে যে, যদি A আইটেমটি কেনা হয়, তাহলে B আইটেম কেনার সম্ভাবনা কতটা।

    Confidence(AB)=Support(AB)Support(A)Confidence(A \Rightarrow B) = \frac{Support(A \cup B)}{Support(A)}

  3. Lift:

    • Lift হলো একটি মেট্রিক যা নির্ধারণ করে দুটি আইটেম একসাথে কেনার সম্ভাবনা কতটা। Lift মূলত Support এবং Confidence এর সম্পর্ক।

    Lift(AB)=Confidence(AB)Support(B)Lift(A \Rightarrow B) = \frac{Confidence(A \Rightarrow B)}{Support(B)}

    Lift মান 1 এর বেশি হলে, এটি নির্দেশ করে যে A এবং B একসাথে কেনার মধ্যে পজিটিভ সম্পর্ক আছে।

Association Rule Mining এর প্রক্রিয়া

  1. ডেটা সংগ্রহ:
    • প্রথমে একটি ডেটাসেট তৈরি বা সংগ্রহ করতে হয়, যা ট্রানজ্যাকশন ডেটা বা যেকোনো ধরনের পণ্য সম্পর্কিত ডেটা হতে পারে। প্রতিটি রেকর্ড সাধারণত ট্রানজ্যাকশনের তথ্য ধারণ করে।
  2. Frequent Itemsets খোঁজা:
    • একাধিক আইটেমগুলির সম্মিলিত উপস্থিতির হার বের করার জন্য Apriori অথবা FP-growth অ্যালগরিদম ব্যবহার করা হয়। এদের মাধ্যমে আমরা খুঁজে পাই এমন আইটেমসেট যা একটি নির্দিষ্ট সাপোর্ট থ্রেশহোল্ডের চেয়ে বেশি উপস্থিত।
  3. Rules Generation:
    • এরপর, এই আইটেমসেটের মধ্যে সম্পর্ক তৈরি করা হয়, অর্থাৎ, যদি একটি আইটেম উপস্থিত থাকে, তাহলে অন্য আইটেমটির উপস্থিতির সম্ভাবনা কতটুকু।
    • এটির জন্য confidence এবং lift ব্যবহার করা হয়, যাতে সঠিক রুলগুলি চিহ্নিত করা যায়।

Association Rule Mining এর অ্যালগরিদম

  1. Apriori Algorithm:
    • Apriori অ্যালগরিদম খুবই জনপ্রিয় এবং এটি Frequent Itemset খোঁজার জন্য ব্যবহৃত হয়। এটি bottom-up প্রক্রিয়া অনুসরণ করে, যেখানে শুরুতে একক আইটেমগুলির মধ্যে সম্পর্ক খোঁজা হয় এবং তারপরে বৃহত্তর আইটেমসেটের জন্য পরীক্ষা করা হয়।
    • এর মাধ্যমে support এবং confidence এর উপর ভিত্তি করে association rules তৈরি করা হয়।
  2. FP-growth Algorithm:
    • FP-growth একটি আরো উন্নত অ্যালগরিদম যা Apriori থেকে দ্রুত এবং আরও কার্যকরী। এটি একটি বিশেষ ধরনের prefix-tree (FP-tree) ব্যবহার করে এবং Frequent Itemsets খোঁজার জন্য কম প্রক্রিয়া ব্যবহার করে।

Association Rule Mining এর ব্যবহার

  1. Market Basket Analysis:
    • এটি সবচেয়ে সাধারণ ব্যবহার যেখানে বিভিন্ন পণ্য একসাথে কেনার সম্পর্ক বিশ্লেষণ করা হয়। উদাহরণস্বরূপ, যদি একজন গ্রাহক ব্রেড কেনে, তাহলে তার সাথে বাটার কেনার সম্ভাবনা বেশি।
  2. ক্রস-সেলিং এবং আপসেলিং:
    • ব্যবসায়ীরা অ্যাসোসিয়েশন রুল মাইনিং ব্যবহার করে ক্রস-সেলিং (যেমন একটি পণ্য কিনলে অন্য একটি পণ্য প্রস্তাব) এবং আপসেলিং (উচ্চ মূল্যের পণ্য প্রস্তাব) কৌশল তৈরি করতে পারে।
  3. ডেটা সায়েন্স এবং এনালিটিক্স:
    • ডেটা সায়েন্সে, এটি বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্ক শনাক্ত করার জন্য ব্যবহৃত হয়, যেমন গ্রাহকদের আচরণ, সেবার মধ্যে সম্পর্ক, বা পণ্যের পারফরম্যান্স।
  4. ওয়েব পেজ রেকমেন্ডেশন:
    • অ্যাসোসিয়েশন রুল মাইনিং ওয়েবসাইটে গ্রাহকদের আগ্রহের প্যাটার্ন বিশ্লেষণ করতে সহায়ক, যার মাধ্যমে পণ্য বা সার্ভিসের রেকমেন্ডেশন সিস্টেম তৈরি করা হয়।

সারাংশ

Association Rule Mining হলো একটি শক্তিশালী টেকনিক যা ডেটাসেটের মধ্যে সম্পর্ক এবং প্যাটার্ন আবিষ্কার করতে ব্যবহৃত হয়। এটি বাজার বিশ্লেষণ, ক্রস-সেলিং, এবং অন্যান্য ব্যবসায়িক কৌশল তৈরি করার জন্য উপযোগী। Apriori এবং FP-growth এর মতো অ্যালগরিদমগুলি এটি বাস্তবায়নের জন্য ব্যবহৃত হয় এবং support, confidence, এবং lift এর মতো মেট্রিক্স দ্বারা ফলাফল পরিমাপ করা হয়।

Content added By

Association Rule Mining এর ধারণা

235

Association Rule Mining হল একটি জনপ্রিয় ডেটা মাইনিং টেকনিক যা ডেটাসেটে লুকানো সম্পর্ক এবং প্যাটার্ন খুঁজে বের করতে ব্যবহৃত হয়। এটি মূলত ব্যবহৃত হয় বাজারের ঝুঁকি বিশ্লেষণ বা মার্কেট বাসকেট অ্যানালাইসিস-এ, যেখানে এটি সাহায্য করে কোনো নির্দিষ্ট পণ্যের সাথে সম্পর্কিত অন্যান্য পণ্য বা সেবা সম্পর্কে তথ্য বের করতে। এটি ডেটা মাইনিং এর এক প্রকার টেকনিক যার মাধ্যমে ইনফরমেশন রুলস তৈরি করা হয়, যা ব্যবহৃত ডেটাতে বিভিন্ন আইটেমের মধ্যে সম্পর্ক প্রকাশ করে।


Association Rule Mining এর ধারণা

Association Rule Mining এর মাধ্যমে ডেটাতে আইটেমগুলোর মধ্যে আর্লি বা লেট সম্পর্ক খুঁজে বের করা হয়। এটি সাধারণত ট্রানজেকশনাল ডেটা থেকে সম্পর্ক বের করতে ব্যবহৃত হয়, যেমন:

  • এখন আপনি যদি কোনো পণ্য কেনেন, তাহলে আরও কোন পণ্য কেনার সম্ভাবনা রয়েছে?
  • কোনো একাধিক পণ্যের সাথে সম্পর্কযুক্ত অন্যান্য পণ্য কী হতে পারে?

এটি মূলত এক্সপ্লোরেটরি ডেটা অ্যানালাইসিস এর একটি টেকনিক, যা আইটেমের মধ্যে সম্পর্ক খুঁজে বের করার জন্য ব্যবহৃত হয়।


Association Rule Mining এর প্রধান উপাদান

Association Rule Mining এর মধ্যে দুটি মূল উপাদান থাকে:

  1. Itemset:
    • Itemset হল এমন একটি সেট যেখানে একাধিক আইটেম থাকে, যা একই সময়ের মধ্যে একত্রে ঘটে।
    • উদাহরণস্বরূপ, একটি ট্রানজেকশনে যদি দুটি পণ্য (যেমন এবং বি) একসাথে কেনা হয়, তবে এটি একটি itemset হবে।
  2. Association Rule:
    • একটি association rule হল একটি শর্ত এবং তার ফলাফলের মধ্যে সম্পর্কের একটি শর্তাধীন প্রকাশ। এটি এমন একটি রুল যা একটি নির্দিষ্ট আইটেমের উপস্থিতি থেকে অন্য আইটেমের উপস্থিতি অনুমান করতে সাহায্য করে।
    • সাধারণভাবে একটি অ্যাসোসিয়েশন রুলের কাঠামো হয়:
      • A → B (এটি মানে, যদি A কেনা হয়, তবে B কেনার সম্ভাবনা বেশি।)

Association Rule Mining এর মূল পরিমাপ

Association Rule Mining-এ কিছু গুরুত্বপূর্ণ পরিমাপ ব্যবহৃত হয়, যা রুলের শক্তি এবং প্রভাব বুঝতে সহায়ক:

  1. Support (সমর্থন):
    • Support হল সেই পরিমাণ ট্রানজেকশনের অনুপাত যেখানে একটি নির্দিষ্ট আইটেম সেট উপস্থিত থাকে।
    • Support (A → B) = (Number of transactions containing both A and B) / (Total number of transactions)
  2. Confidence (বিশ্বাস):
    • Confidence হল সেই সম্ভাবনা যা একটি নির্দিষ্ট আইটেমের উপস্থিতি থেকে অন্য আইটেমের উপস্থিতি অনুমান করা হয়।
    • Confidence (A → B) = (Number of transactions containing both A and B) / (Number of transactions containing A)
  3. Lift (উচ্চতা):
    • Lift হল একটি রুলের শক্তি পরিমাপ করার জন্য ব্যবহৃত একটি পরিমাপ। এটি দেখা যায় যে দুটি আইটেমের মধ্যে সম্পর্ক কেবলমাত্র ঐ দুটি আইটেমের ব্যক্তিগত সমর্থন থেকে কতটা বেশি।
    • Lift (A → B) = (Confidence (A → B)) / (Support of B)

Association Rule Mining এর ব্যবহার

  1. বাজার ঝুঁকি বিশ্লেষণ (Market Basket Analysis):
    • মার্কেট বাসকেট অ্যানালাইসিসে Association Rule Mining ব্যবহার করা হয়, যেখানে বিভিন্ন পণ্য বা সেবা একসাথে কেনার প্রবণতা বিশ্লেষণ করা হয়। এটি ব্যবসায়ীদের জানায় কোন পণ্যগুলির মধ্যে সম্পর্ক রয়েছে এবং কোন পণ্য একসাথে প্রোমোট করা যেতে পারে।
  2. ক্রস-সেলিং এবং আপ-সেলিং:
    • ব্যবসায়িক ক্ষেত্রে এটি সাহায্য করতে পারে নতুন পণ্য প্রস্তাব করতে, যেমন কোনো একটি পণ্য কেনার পর গ্রাহক কীভাবে অন্য পণ্য কিনতে পারে তা চিহ্নিত করা।
  3. ভোক্তা আচরণ বিশ্লেষণ:
    • এটি ভোক্তার ক্রয়ের আচরণ এবং পছন্দ সম্পর্কে তথ্য দেয়, যেমন গ্রাহকরা সাধারণত কী ধরনের পণ্য একসাথে কিনে থাকেন।
  4. বিভিন্ন মার্কেটিং কৌশল তৈরি:
    • অ্যাসোসিয়েশন রুলস ব্যবহার করে কোম্পানিগুলি তাদের মার্কেটিং কৌশল তৈরি করতে পারে এবং তাদের সেলস স্ট্র্যাটেজি উন্নত করতে পারে।

Association Rule Mining এর প্রক্রিয়া

  1. ডেটা সংগ্রহ: প্রথমে একটি বড় ডেটাসেট সংগ্রহ করা হয়, যেখানে ট্রানজেকশন এবং আইটেমের তথ্য থাকে।
  2. আইটেমসেট জেনারেশন: এরপর, ডেটাতে সব ধরনের আইটেমসেট বের করা হয়।
  3. Support, Confidence, এবং Lift হিসাব করা: প্রতিটি রুলের Support, Confidence এবং Lift হিসাব করা হয়, এবং কেবলমাত্র সেই রুলগুলো বেছে নেওয়া হয় যেগুলো ব্যবসায়িক উদ্দেশ্যে কার্যকর।
  4. ফিল্টারিং: অবশেষে, খারাপ বা অপ্রয়োজনীয় রুলগুলো ফিল্টার করা হয় এবং শুধুমাত্র গুরুত্বপূর্ণ রুলগুলি নির্বাচন করা হয়।

উদাহরণ

ধরা যাক, একটি সুপারমার্কেটের ডেটা থেকে Association Rule Mining করা হচ্ছে। এখানে কিছু উদাহরণ রুল হতে পারে:

  • Rule 1: যদি গ্রাহক দুধ কেনে, তাহলে তিনি পনিরও কিনতে পারেন। (A → B)
    • Support = 0.1 (এটি বোঝায় যে ১০% ট্রানজেকশনে দুধ এবং পনির একসাথে কেনা হয়েছে)
    • Confidence = 0.8 (অর্থাৎ, দুধ কেনা গ্রাহকদের মধ্যে ৮০% পনিরও কিনেছে)
  • Rule 2: যদি গ্রাহক চকোলেট কেনেন, তবে তারা কফি কেনার সম্ভাবনা বেশি। (C → D)
    • Support = 0.05
    • Confidence = 0.75

সারাংশ

Association Rule Mining হল একটি শক্তিশালী টুল যা ডেটাসেটে আইটেমের মধ্যে সম্পর্ক এবং প্যাটার্ন খুঁজে বের করতে ব্যবহৃত হয়। এটি বিভিন্ন ক্ষেত্র যেমন মার্কেটিং, ব্যবসায়িক সিদ্ধান্ত, এবং ক্রেতা বিশ্লেষণে সহায়ক। এটি এমন রুল তৈরি করে যা একে অপরের সাথে সম্পর্কিত আইটেমের মধ্যে সম্ভাব্যতা প্রকাশ করে, যা ব্যবসায়িক কৌশলগুলোর উন্নতিতে সহায়তা করতে পারে।

Content added By

Apriori এবং FP-Growth Algorithm ব্যবহার

225

Apriori এবং FP-Growth হল দুটি জনপ্রিয় অ্যালগরিদম যা Association Rule Mining এর জন্য ব্যবহৃত হয়। এই অ্যালগরিদমগুলো ডেটাসেটে আইটেমসেটের মধ্যে সম্পর্ক খুঁজে বের করতে সাহায্য করে এবং সেগুলির মধ্যে অ্যাসোসিয়েশন রুল তৈরি করে। এগুলোর মাধ্যমে Frequent Itemsets বের করা হয়, যা পরবর্তীতে Association Rules তৈরি করতে ব্যবহৃত হয়।

এখানে আমি Apriori এবং FP-Growth অ্যালগরিদম ব্যবহার করার ধাপগুলো ব্যাখ্যা করবো।


1. Apriori Algorithm

Apriori অ্যালগরিদমটি একটি Bottom-up অ্যাপ্রোচ ব্যবহার করে। এটি প্রথমে ছোট আইটেমসেট (একটি আইটেম) খুঁজে বের করে, তারপর এই আইটেমসেটগুলোর সমন্বয়ে বড় আইটেমসেট তৈরি করে। এই অ্যালগরিদমটি খুবই জনপ্রিয় এবং ব্যপকভাবে ব্যবহৃত হয় Market Basket Analysis এবং Frequent Itemset Mining এর জন্য।

Apriori Algorithm-এর কার্যপ্রণালী:

  1. প্রথমে, সব একক আইটেমের Support (সমর্থন) হিসাব করা হয়।
  2. এরপর candidate itemsets তৈরি করা হয় যা পর্যায়ক্রমে বড় হতে থাকে, এবং প্রত্যেকটি আইটেমসেটের Support হিসাব করা হয়।
  3. শেষ পর্যন্ত, যেগুলি min_support এর উপরে থাকে, সেগুলো frequent itemsets হিসেবে চিহ্নিত করা হয়।

Python-এ Apriori Algorithm উদাহরণ:

# লাইব্রেরি ইনস্টল করুন
!pip install mlxtend

from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

# ডেটা সেট তৈরি করুন (ট্রানজেকশন তালিকা)
dataset = [['milk', 'bread', 'butter'],
           ['milk', 'bread'],
           ['milk', 'butter'],
           ['bread', 'butter'],
           ['milk', 'bread', 'butter']]

# ডেটা ফ্রেম তৈরি করুন
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

# Apriori অ্যালগরিদম প্রয়োগ করুন
frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)

# অ্যাসোসিয়েশন রুল তৈরি করুন
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

# রুল দেখান
print(rules)

এখানে, milk, bread, এবং butter আইটেমগুলো ব্যবহার করা হয়েছে এবং min_support 0.6 নির্ধারণ করা হয়েছে, অর্থাৎ শুধুমাত্র সেই আইটেমসেটগুলো খুঁজে বের করা হবে যেগুলির উপস্থিতি 60% বা তার বেশি।


2. FP-Growth Algorithm

FP-Growth একটি উন্নত অ্যালগরিদম যা Frequent Pattern Growth নামক একটি পদ্ধতি অনুসরণ করে। এটি Apriori অ্যালগরিদমের তুলনায় আরও দ্রুত এবং কম মেমরি খরচে কাজ করে। FP-Growth অ্যালগরিদমটি একটি Prefix Tree (FP-tree) ব্যবহার করে। এটি প্রথমে একটি কম্প্যাক্ট FP-tree তৈরি করে, এবং তারপর সেই গাছের উপর ভিত্তি করে Frequent Itemsets খুঁজে বের করে।

FP-Growth Algorithm-এর কার্যপ্রণালী:

  1. প্রথমে FP-tree তৈরি করা হয়, যা Frequent Itemsets কে সন্নিবেশিত করে।
  2. এরপর, FP-tree থেকে Frequent Itemsets খুঁজে বের করা হয় এবং এই আইটেমগুলির সমন্বয়ে Association Rules তৈরি করা হয়।

Python-এ FP-Growth Algorithm উদাহরণ:

# লাইব্রেরি ইনস্টল করুন
!pip install mlxtend

from mlxtend.frequent_patterns import fpgrowth, association_rules
import pandas as pd

# ডেটা সেট তৈরি করুন (ট্রানজেকশন তালিকা)
dataset = [['milk', 'bread', 'butter'],
           ['milk', 'bread'],
           ['milk', 'butter'],
           ['bread', 'butter'],
           ['milk', 'bread', 'butter']]

# ডেটা ফ্রেম তৈরি করুন
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

# FP-Growth অ্যালগরিদম প্রয়োগ করুন
frequent_itemsets_fp = fpgrowth(df, min_support=0.6, use_colnames=True)

# অ্যাসোসিয়েশন রুল তৈরি করুন
rules_fp = association_rules(frequent_itemsets_fp, metric="lift", min_threshold=1)

# রুল দেখান
print(rules_fp)

এখানে, FP-Growth অ্যালগরিদম ব্যবহার করে min_support 0.6 নির্ধারণ করা হয়েছে এবং অ্যাসোসিয়েশন রুলগুলি তৈরি করা হয়েছে।


Apriori এবং FP-Growth এর মধ্যে পার্থক্য

বৈশিষ্ট্যApriori AlgorithmFP-Growth Algorithm
অ্যালগরিদমLevel-wise (level by level)Frequent Pattern Growth
গতিতুলনামূলকভাবে ধীরদ্রুত এবং কম মেমরি খরচ
ডেটা কাঠামোCandidate itemsets তৈরি করেPrefix tree (FP-tree) তৈরি করে
মেমরি খরচবেশি মেমরি খরচকম মেমরি খরচ
উপযুক্ত ডেটাছোট ডেটাসেটবড় ডেটাসেট
কম্পিউটেশনাল ক্ষমতাবেশি সময় নেয়দ্রুত এবং কার্যকর

সারাংশ

Apriori এবং FP-Growth দুটি অ্যালগরিদমই Frequent Itemset Mining এবং Association Rule Mining এর জন্য ব্যবহৃত হয়, কিন্তু FP-Growth সাধারণত দ্রুত এবং কম মেমরি খরচে কাজ করে। Apriori ধীরে ধীরে আইটেমসেটের সম্ভাবনা পরীক্ষা করে এবং candidate itemsets তৈরি করে, যেখানে FP-Growth একটি Prefix Tree (FP-tree) ব্যবহার করে। আপনি আপনার ডেটাসেটের আকার এবং স্কেল অনুযায়ী একটি অ্যালগরিদম নির্বাচন করতে পারেন।

Content added By

Frequent Itemsets এবং Rule Generation

232

Frequent Itemsets এবং Rule Generation

Frequent Itemsets এবং Rule Generation হল Association Rule Mining এর দুটি গুরুত্বপূর্ণ অংশ, যা মূলত Market Basket Analysis (মার্কেট বাস্কেট অ্যানালাইসিস) এবং অন্যান্য ডেটা অ্যানালাইসিস কার্যক্রমে ব্যবহৃত হয়। এই প্রক্রিয়া দুটি একত্রে ব্যবহৃত হয় বড় ডেটাসেটে সম্পর্কিত প্যাটার্ন খুঁজে বের করার জন্য, যা সিদ্ধান্ত গ্রহণ প্রক্রিয়ায় সহায়ক হতে পারে।


1. Frequent Itemsets

Frequent Itemsets হল এমন আইটেমগুলির একটি সেট, যা একটি ডেটাসেটে পর্যাপ্ত পরিমাণে একসাথে ঘটে। সহজভাবে বললে, যদি একটি সুপারমার্কেটে একাধিক পণ্য একসাথে ক্রয় করা হয়, তবে ওই পণ্যের সমন্বয় একটি "frequent itemset" হতে পারে।

Frequent Itemsets এর বৈশিষ্ট্য:

  • Support:
    • এটি একটি আইটেমসেটের প্রাসঙ্গিকতার মাপকাঠি। যদি একটি আইটেমসেট X একটি ডেটাসেটের অনেক ট্রানজ্যাকশনে উপস্থিত থাকে, তাহলে সেই আইটেমসেটের support বেশি হবে।
    • Support(X) = (ট্রানজ্যাকশন যা X আইটেমসেটটি ধারণ করে) / (মোট ট্রানজ্যাকশন)
  • Min-Support:
    • এটি একটি থ্রেশোল্ড বা সীমা যা নির্ধারণ করে, কোনো আইটেমসেট কতবার ঘটলে সেটিকে "frequent" হিসেবে গণ্য করা হবে। যদি একটি আইটেমসেট তার Min-Support মান পূর্ণ না করতে পারে, তবে এটি "frequent" আইটেমসেট হিসেবে গণ্য হবে না।

Frequent Itemset উদাহরণ:

ধরা যাক, একটি দোকানের ডেটাসেটের মধ্যে রয়েছে কিছু ট্রানজ্যাকশন:

  • Transaction 1: {Bread, Milk, Butter}
  • Transaction 2: {Bread, Milk}
  • Transaction 3: {Milk, Butter}
  • Transaction 4: {Bread, Butter}

এখানে, Frequent Itemset এর জন্য, যদি Min-Support 50% হয়, তাহলে "Milk" এবং "Bread" একটি frequent itemset হবে কারণ এটি ৩টি ট্রানজ্যাকশনে উপস্থিত, যা মোট ট্রানজ্যাকশনের 75%।


2. Rule Generation (Association Rules)

Association Rules হল দুটি আইটেম বা আইটেমসেটের মধ্যে সম্পর্ক বের করার পদ্ধতি, যেখানে একটি আইটেমসেট অন্য একটি আইটেমসেটের উপস্থিতির পূর্বাভাস দেয়। এই নিয়মগুলি সাধারণত "If-Then" স্টাইলের হয়, যেমন:

If {Bread, Milk}, Then {Butter}.

এটি বোঝায়, যদি একজন গ্রাহক Bread এবং Milk কেনেন, তবে তারা Butter কেনার সম্ভাবনা বেশি।

Association Rule Generation এর বৈশিষ্ট্য:

  • Confidence:
    • এটি একটি নির্দিষ্ট আইটেমসেটের উপস্থিতির উপর ভিত্তি করে অন্য একটি আইটেমসেটের উপস্থিতির সম্ভাবনা মাপার একটি পদ্ধতি।
    • Confidence(A → B) = Support(A ∪ B) / Support(A)
    • এটি আপনাকে বলে, যদি A (যেমন, Bread) কেনা হয়, তবে B (যেমন, Butter) কেনার সম্ভাবনা কত।
  • Lift:
    • এটি একটি পরিমাপ যা একটি রুলের প্রাসঙ্গিকতা এবং বিশ্বাসযোগ্যতা পরিমাপ করে। Lift মূলত দুটি আইটেমের মধ্যে সম্পর্কের শক্তি বোঝায়।
    • Lift(A → B) = Confidence(A → B) / Support(B)
    • Lift > 1 হলে, দুটি আইটেমের মধ্যে সম্পর্ক শক্তিশালী, Lift = 1 হলে, কোনো সম্পর্ক নেই, এবং Lift < 1 হলে, দুটি আইটেমের মধ্যে সম্পর্ক খুবই দুর্বল।

Rule Generation উদাহরণ:

ধরা যাক, আমাদের ডেটাসেটে পাওয়া গেছে:

  • Support(Bread, Milk) = 0.5
  • Support(Butter) = 0.25
  • Support(Bread, Milk → Butter) = 0.25

এখন, Confidence(Bread, Milk → Butter) হবে:

Confidence(Bread, Milk → Butter)=Support(Bread,Milk,Butter)Support(Bread,Milk)=0.250.5=0.5  (50% Confidence)

এবং Lift(Bread, Milk → Butter) হবে:

Lift(Bread, Milk → Butter)=Confidence(Bread,MilkButter)Support(Butter)=0.50.25=2\text{Lift(Bread, Milk → Butter)} = \frac{Confidence(Bread, Milk → Butter)}{Support(Butter)} = \frac{0.5}{0.25} = 2

এখানে Lift 2, যা বোঝায় যে, Bread এবং Milk একসাথে কেনার সাথে Butter কেনার সম্ভাবনা দ্বিগুণ।


3. Frequent Itemsets এবং Rule Generation এর গুরুত্ব

  • Business Insights: Frequent itemsets এবং Association rules ব্যবসায়িক সিদ্ধান্ত গ্রহণের জন্য গুরুত্বপূর্ণ। যেমন, মার্কেট বাস্কেট অ্যানালাইসিসের মাধ্যমে দোকান মালিকরা জানতে পারেন কোন পণ্যগুলি একসাথে বেশি বিক্রি হয়, এবং তাদের পণ্যের প্রমোশনাল স্ট্র্যাটেজি তৈরি করতে সহায়ক।
  • Customer Behavior Analysis: গ্রাহকের কেনাকাটার প্যাটার্ন বুঝতে সাহায্য করে, যাতে ব্যবসায়ীরা সঠিকভাবে গ্রাহকদের চাহিদা অনুযায়ী সেবা দিতে পারেন।
  • Product Placement: ব্যবসায়ীরা তাদের পণ্যগুলি এমনভাবে সাজাতে পারেন যাতে একসাথে কেনা হয় এমন আইটেমগুলি কাছাকাছি স্থাপন করা হয়, ফলে বিক্রয় বৃদ্ধি পায়।
  • Cross-Selling & Up-Selling: Association rules ক্রস-সেলিং এবং আপ-সেলিং স্ট্র্যাটেজি তৈরি করতে ব্যবহৃত হয়, যেখানে গ্রাহকরা কিছু পণ্য কিনলে তাদের সাথে সম্পর্কিত অন্যান্য পণ্যও বিক্রি করা হয়।

সারাংশ

Frequent Itemsets হলো ডেটাসেটে একসাথে ঘটা আইটেমের সেট, যেগুলির ঘটনা একাধিক বার ঘটেছে এবং Rule Generation হল সেই আইটেমগুলো মধ্যে সম্পর্ক তৈরি করা যা অন্য আইটেমের উপস্থিতির পূর্বাভাস দেয়। এই পদ্ধতিটি ব্যবসায়িক সিদ্ধান্ত, মার্কেটিং, গ্রাহক বিশ্লেষণ, এবং আরও অনেক ক্ষেত্রে গুরুত্বপূর্ণ। Support, Confidence, এবং Lift এর মাধ্যমে এই প্যাটার্নগুলির শক্তি এবং প্রাসঙ্গিকতা পরিমাপ করা হয়।

Content added By

Market Basket Analysis এর জন্য Association Rules

251

Market Basket Analysis (MBA) হল একটি জনপ্রিয় ডেটা মাইনিং টেকনিক, যা মূলত বিক্রয় ডেটা বিশ্লেষণ করার জন্য ব্যবহৃত হয়। এর মাধ্যমে আমরা বুঝতে পারি কোন পণ্যগুলি একসাথে কেনা হয়। উদাহরণস্বরূপ, "যদি গ্রাহক একটি পিৎজা কিনে, তবে তারা সাধারণত একটি কোক কিনবে"—এটি হল একটি Association Rule (অ্যাসোসিয়েশন রুল)। MBA মূলত Association Rules ব্যবহার করে এই ধরনের সম্পর্ক খুঁজে বের করতে সাহায্য করে।


Association Rules (অ্যাসোসিয়েশন রুলস)

Association Rule হল এমন একটি নিয়ম যা দুটি আইটেমের মধ্যে সম্পর্ক প্রকাশ করে। এই ধরনের রুলসের মধ্যে সাধারণত দুটি পণ্য থাকে (একটি antecedent এবং একটি consequent)।

  • Antecedent: প্রথম আইটেম (যা ঘটছে বা কেনা হচ্ছে)
  • Consequent: দ্বিতীয় আইটেম (যা তার সাথে সম্পর্কিত বা কেনা হচ্ছে)

একটি সাধারণ Association Rule এর ফর্ম:

{Item A} => {Item B}

এখানে, Item A কেনার পর Item B কেনার সম্ভাবনা বেশি।


Association Rules এর মাপকাঠি (Metrics)

Association rules তৈরি করার সময় কিছু মেট্রিক্স ব্যবহার করা হয় যাতে রুলটির শক্তি এবং গুরুত্ব পরিমাপ করা যায়। সাধারণত ৩টি প্রধান মেট্রিক্স ব্যবহৃত হয়:

  1. Support:
    • এটি একটি নির্দিষ্ট আইটেমসেটের জন্য কতবার একসাথে ঘটে তা নির্ধারণ করে। সাধারণত, এটি নির্ধারণ করে, কতটি ট্রানজ্যাকশনে নির্দিষ্ট আইটেমসেটটি উপস্থিত ছিল।
    • Support = (আইটেমসেটের সাথে সম্পর্কিত ট্রানজ্যাকশন সংখ্যা) / (মোট ট্রানজ্যাকশন সংখ্যা)
  2. Confidence:
    • এটি একটি রুলের শক্তি পরিমাপ করে, অর্থাৎ যদি A কেনা হয় তবে কতটা সম্ভাবনা রয়েছে B কেনা হবে।
    • Confidence = (A এবং B এর জন্য ট্রানজ্যাকশন সংখ্যা) / (A এর জন্য ট্রানজ্যাকশন সংখ্যা)
  3. Lift:
    • এটি একটি রুলের কার্যকারিতা পরিমাপ করে, অর্থাৎ রুলটি случайных (random) আইটেমসেট থেকে বেশি কার্যকর কিনা।
    • Lift = Confidence / (Support of B)
    • যদি Lift > 1 হয়, তবে এটি একটি শক্তিশালী রুল।

Market Basket Analysis এ Association Rules উদাহরণ

ধরা যাক, একটি সুপারমার্কেটের ডেটা রয়েছে যেখানে বিভিন্ন পণ্য বিক্রি হয় এবং তাদের বিক্রির ট্রানজ্যাকশন ডেটা রয়েছে। নিচে কিছু উদাহরণ দেওয়া হলো:

  1. Rule 1: {Bread} => {Butter}
    • Support: 0.3 (30% ট্রানজ্যাকশনে ব্রেড এবং বাটার ছিল)
    • Confidence: 0.5 (যতজন মানুষ ব্রেড কিনেছে, তার 50% মানুষ বাটারও কিনেছে)
    • Lift: 1.5 (এটি বোঝায় যে, ব্রেড এবং বাটার একসাথে কেনার সম্ভাবনা র্যান্ডম কেনার চেয়ে 1.5 গুণ বেশি)
  2. Rule 2: {Milk} => {Cereal}
    • Support: 0.2 (20% ট্রানজ্যাকশনে মিল্ক এবং সিরিয়াল ছিল)
    • Confidence: 0.4 (যতজন মানুষ মিল্ক কিনেছে, তার 40% মানুষ সিরিয়ালও কিনেছে)
    • Lift: 1.2 (এটি বোঝায় যে, মিল্ক এবং সিরিয়াল একসাথে কেনার সম্ভাবনা র্যান্ডম কেনার চেয়ে 1.2 গুণ বেশি)

Market Basket Analysis এর জন্য KNIME-এ Association Rules

KNIME এ Market Basket Analysis (MBA) এবং Association Rules বের করার জন্য বিশেষ Association Rule Learner নোড ব্যবহার করা হয়। এটি ডেটা প্রসেসিং এবং মডেলিংয়ের জন্য অত্যন্ত কার্যকর।

KNIME-এ Association Rules তৈরি করার প্রক্রিয়া

  1. ডেটা লোড করা:
    • প্রথমে আপনাকে ডেটা লোড করতে হবে, যেমন আপনার ট্রানজ্যাকশন ডেটা (CSV, Excel, বা ডেটাবেস থেকে)।
  2. Data Preprocessing:
    • ডেটা ক্লিনিং বা প্রিপ্রসেসিং করতে হতে পারে, যেমন মিসিং ভ্যালু হ্যান্ডেল করা, ফিল্টার করা ইত্যাদি।
  3. Transaction Format:
    • KNIME-এ ট্রানজ্যাকশন ডেটা প্রক্রিয়াকরণ করতে, ডেটাকে Transaction Format এ কনভার্ট করতে হয়। KNIME এ "Table to Transaction" নোড ব্যবহার করে এটি করা যেতে পারে।
  4. Association Rule Learner নোড ব্যবহার করা:
    • ডেটা প্রসেসিং করার পর, Association Rule Learner নোড ব্যবহার করুন। এটি Association Rules তৈরি করবে।
  5. Rule Evaluation:
    • তৈরি করা রুলসগুলোর ফলাফল দেখতে Rule Filter বা Rule Viewer নোড ব্যবহার করা যেতে পারে, যেগুলি রুলগুলির শক্তি এবং কার্যকারিতা বিশ্লেষণ করতে সহায়ক।
  6. ভিজুয়ালাইজেশন:
    • রুলগুলির উপর ভিত্তি করে একটি ভিজুয়াল রিপ্রেজেন্টেশন তৈরি করতে পারেন, যেমন বার চার্ট বা স্ক্যাটার প্লট।

সারাংশ

Market Basket Analysis (MBA) হল এক ধরনের ডেটা মাইনিং টেকনিক যা গ্রাহকদের কেনাকাটার প্যাটার্ন বিশ্লেষণ করে। Association Rules এই বিশ্লেষণে মূল ভূমিকা পালন করে, যা নির্ধারণ করে কোন পণ্যগুলি একসাথে কেনা হয়। KNIME এর মধ্যে সহজেই Association Rule Learner নোড ব্যবহার করে এই রুলগুলি তৈরি করা যায় এবং তাদের কার্যকারিতা বিশ্লেষণ করা সম্ভব।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...